NVIDIA近日於SIGGRAPH 2025上,發表全新的NVIDIA Omniverse函式庫與NVIDIA Cosmos世界基礎模型(WFM),加速開發及部署機器人解決方案。該函式庫與模型採用全新的NVIDIA RTX PRO伺服器與NVIDIA DGX Cloud,可讓開發者隨時隨地開發物理上精確的數位孿生、擷取真實世界並於模擬環境中重建、生成訓練物理AI模型用的合成資料,以及打造理解物理世界的AI代理。

NVIDIA Omniverse與模擬技術部副總裁Rev Lebaredian表示,電腦繪圖正與AI技術融合,徹底革新機器人技術領域。我們結合AI推理與符合物理定律的可擴充模擬技術,讓開發者能打造翻轉數兆美元產值的未來機器人與自駕車。
新版開發套件加速機器人開發
全新的NVIDIA Omniverse軟體開發套件(SDK)與函式庫可用於打造及部署工業AI與機器人模擬應用。在新的SDK中,NVIDIA導入了MuJoCo(MJCF)與通用場景描述(OpenUSD)資料互通功能,讓250,000多名MJCF機器人學習開發者順利跨平台模擬機器人。此外,NVIDIA Isaac Sim 5.0與NVIDIA Isaac Lab 2.2開源機器人模擬技術與學習框架現,亦已在GitHub上架。Isaac Sim現在包含NuRec神經渲染及全新基於的OpenUSD機器人技術和感測器架構,協助機器人開發者拉近模擬與現實的差距。
Omniverse NuRec渲染技術現已整合至CARLA;這款頂尖的開源模擬器廣受150,000多名開發者青睞。自駕車工具鏈領導者Foretellix正在整合NuRec 、NVIDIA Omniverse Sensor RTX與Cosmos Transfer,以透過物理精準的情境提升其可擴充的合成資料生成能力。Voxel51的視覺與多模態AI資料引擎FiftyOne支援NuRec,可減輕重建時準備資料的重擔。
Cosmos為機器人技術領域推動世界生成技術發展
Cosmos WFM目前的下載次數逾200萬,可讓開發者利用文字、影像與影片提示,生成大規模訓練機器人用的各種資料。NVIDIA於SIGGRAPH發表的全新模型Cosmos Transfer-2,則進一步提高生成合成資料的速度、準確性,語言支援和控制能力亦大幅增加。
Cosmos Transfer-2的提示流程更加簡化,並且加速從真實3D模擬場景或是深度資料、影像分割、邊緣和高解析度地圖等空間控制輸入資料,生成逼真合成資料的過程。蒸餾版Cosmos Transfer將70個步驟的蒸餾程序減化為單一步驟,因此開發者可以前所未有的速度在NVIDIA RTX PRO伺服器執行該模型。
Cosmos Reason突破AI對世界的認知
OpenAI的CLIP模型問世以來,視覺語言模型(VLM)徹底改變了物體與模式識別這類機器視覺工作。然而,這類模型依舊無法解決多步驟工作,也無法處理模糊情況或新穎體驗。
NVIDIA Cosmos Reason是適用於物理AI與機器人的全新開放式、可完全客製化,並具備70億個參數的推理視覺語言模型,讓機器人與視覺AI代理跟人類一樣,運用既有知識、物理概念與常識,在理解真實世界後採取行動。
Cosmos Reason適用於機器人技術與物理AI應用,包括:
– 資料庋用與註釋可讓開發者將大量多樣化訓練資料集的高品質庋用與註釋工作自動化。
– 機器人規劃與推理技術猶如機器人視覺語言行動(VLA)模型的大腦,讓模型深思熟慮有條不紊做出決策。Cosmos Reason讓機器人解讀環境、在收到複雜的指令後將指令分解為各種工作,而且即使在不熟悉的環境,也能運用常識執行這些工作。
– 影片分析AI代理建置在適用於影片搜尋和摘要的NVIDIA Blueprint,不僅能擷取寶貴的深入解析,還能對大量影片資料執行根本原因分析。
NVIDIA的機器人與NVIDIA DRIVE團隊正使用Cosmos Reason進行資料庋用與篩選、註釋及機器人視覺語言行動後期訓練。